大模型要和场景结合的共识下,现在进度到哪了?|TE对话
现阶段最合理的方式是大家在同一个游戏规则下合作,
企业找到用户的需求,大模型让依据需求生成的结果更合理。
百度在国内率先跟进OpenAI,发布文心一言大模型的当晚,微软在大洋彼岸宣布将把GPT-4模型引入Office应用程序,打响了大模型+办公场景的第一枪。
一个月后,飞书、钉钉、WPS陆续宣布了国产办公应用生成式AI的解决方案。
“微软发布会在我们内部的确引起了震动。虽然春节前后我们就开始了相关部署,但这之后AI的优先级成为了最高。”金山办公产品总监王中秋告诉亿欧TE智库(ID:TEinstitute)。
4月18日,金山办公召开发布会,对外演示了在创业公司MiniMax提供的大模型下,其在智能文档等应用的文生文、文生图功能。
金山办公CEO章庆元明确表示,现阶段金山办公不做大模型,主要通过和厂商合作,将大模型能力落地到业务场景中。
由于业务场景清晰,又有行业巨头前方探路,办公和营销一样,成为大模型与行业结合的先驱。
只不过在当时的背景下,业内主流声音还在讨论,谁能做成国产的OpenAI。
仅仅3个月后,物转时移。在WAIC2023展馆中心,亿欧TE智库(ID:TEinstitute)看到绝大部分模型厂商都提出要做垂直场景的生意。大模型和场景结合落地,俨然成为了新共识。
会展上,金山办公工作人员告诉亿欧TE智库,除了MiniMax,金山办公后续还接入了百度的文心一言、清华系创业公司智谱华章的智谱AI大模型。博各家之众长,这也是亿欧TE智库(ID:TEinstitute)和另外一些大模型应用企业交流时,他们共同的落地方案。
目前,金山办公的WPS AI已经上线官网,用户可以通过申请成为体验官,并在Windows、安卓端下载安装应用。
在让普通用户直接体验到产品上,金山办公走在了微软Office前面。尽管发布时间更早,微软Office 365 Copilot主要面向企业客户进行测试。
本次,亿欧TE智库(ID:TEinstitute)对话金山办公产品总监王中秋,王中秋负责的智能文档是金山办公体系内最早进行大模型能力探索的应用。通过金山办公——这家在国内将大模型与场景结合走在最前面的企业,我们可以一窥目前企业如何落地大模型,大模型落地的进展、效果、难点和解决方案。
以下为对话内容,经亿欧TE智库编辑:
亿欧TE智库:从3月份开始研发冲刺以来,公司在资源、人才和组织上对大模型开发做了哪些调整?
王中秋:首先是优先级,各个团队的研发、测试、支持性团队都把AI设置为今年的最高优先级。
在这个背景下,金山办公武汉的AI团队负责创新的技术研发应用。WPS(可离线部署、金山办公对标微软Office的应用)和金山文档(包括目前已经开放测试的在线文字、演示、PDF、表格、智能文档、智能表格、智能表单)业务团队主要对产品功能进行AI能力的叠加。
这个过程中因为时间紧迫,我们都是一边学习大模型知识,一边上手开发做落地。把外部和内部资源都做了充分调用。其中,中台部门通过和业务部门合作,把共性的需求抽象出来模块化,以免内部重复造车轮。
亿欧TE智库:我们最早宣布和MiniMax进行大模型合作,后来又跟进了和百度、智谱华章的大模型合作。我们如何与3家大模型厂商对接?
王中秋:WPS AI囊括的智能文档、在线文字、在线演示和WPS各组件等每个产品背后都是不同的产研团队在负责,所以每个业务都是通过中台和大模型厂商对接,然后各个产研团队根据大模型能力,把一些个性化的需求进行工程化落地。
而大模型厂商给我们的主要服务是提供API。因为他们也有很多客户要服务,所以我们的合作是一种解耦的方式,他们做好大模型产品的标准化,我们做好内部产品的标准化,然后双方在一些公开的协议上做对接。
现阶段最合理的方式还是大家在同一个游戏规则下合作,我们找到自己用户的需求,他们让根据需求返回的结果更加合理。
亿欧TE智库:我们和不同厂商间的合作有什么差异?
王中秋: 从结果看,我们会综合考虑成本、效率、响应速度,选择调取大模型厂商的API、借助它们的推理算力,来完成我们能力的落地。不可否认在一些特定场景下,不同大模型反馈的结果有略微不同,我们会通过测试来锚定不同场景最适合的大模型。
亿欧TE智库:在落地大模型能力的过程中,产品团队具体的工作是什么?
王中秋:我们帮助用户让他们的需求更好地被大模型满足。首先是找到用户需求的场景做生成式的能力接入。在这个环节,我们会做大量提示词工程化的工作,这和产品的常规开发有很多结合。
比如在头脑风暴场景,用户看到的是输入一个主题,产品进行相关背景阐述,给出脑爆点引导讨论和总结。而后台的过程是,产品团队会给脑暴场景写很多提示词,规定他的格式(如保持中心思想且尽可能地发散、产出多少个脑暴的角度点、合适数量的脑暴点显示和更新)以及规范(包括AI不能做的事,如输出违背法律、公序良俗的内容)。
除此之外,还有一些调用、自动化、缓存等应用外层的支持性工作需要我们完成。
然后我们还会根据客户反馈的bad case(不符合预期结果的案例),排除一些工程化的bug后,反馈给模型厂商和他们一起进行优化。
亿欧TE智库:现阶段我们如何在应用中评估大模型的效果?
王中秋:我们很看重大模型回答的稳定性,有几种方法进行评估。
其一是建立了回答格式和规范的标准化体系,然后用自动化的方式筛选AI给出的反馈,剔除不符合常规、不可读的答案。
在满足基本格式和规范的基础上,对于内容质量的评估,现在主要靠人工给AI的答案排序,告诉它回答的优劣程度。这里也会涉及大模型厂商的选择对比,我们会做双盲测试,给出不同模型在特定场景的评分。
此外,我们也有直接的用户反馈机制。用户可以通过点赞、点踩等动作告诉我们对答案的满意程度,这些数据也会用来优化生成结果。
不过,现在我们还做不到以垂直场景的know-how为评判依据,这主要和业务规划相关。只有等我们的业务规划到了那一步,比如要瞄准金融行业做生成式AI服务,到时候会采用各种方法,也不排除会和垂直大模型进行合作。
亿欧TE智库:在大模型与应用的结合中,你们观察到落地的难点有什么?
王中秋:大模型的幻视(一本正经的胡说八道)问题现在还是世界性难题。除此之外,用户不知道如何提问,中文语义的歧义比较多,GAI(生成式AI)不是AGI(通用的“全知”AI)有很多限制和无法理解文本的情况等等,都需要我们一个个处理,并在工程上做出优化,来弥补大模型的缺陷。
亿欧TE智库:目前WPS AI已经可以在Windows和安卓端下载应用了,苹果系统的产品什么时候出来?我们产品的商业化方案有了吗?
王中秋:产品上线节奏和不同平台服务的用户量有关。现在苹果生态的产品其实已经完成功能开发,处于使用体验打磨阶段,等产品再打磨得好些就会推向外部。
产品的商业化也在内部研讨中。不过正式推出还要等产品打磨好、成本测算清楚后,还需要一段时间。
亿欧TE智库:《生成式人工智能服务暂行管理办法》发布后,给我们带来了哪些影响?
王中秋:《暂行管理办法》的发布对企业来说是个好事,能够让从业者知道标准是什么,红线在哪里。这样我们就不会触及红线,并且会对齐标准,让产品合法合规。
欢迎持续关注TE智库公众号(TEinstitute)
添加「TE小助手」,与我们取得联系~